18-4 nФ珓

一般語音辨識中,會以聲學模型來作為語音辨識的基本單位,因此要進行語音資料的訓練來求取聲學模型的參數時,就必須要先確認聲學模型的結構。以下先介紹幾個常用的名詞: 以我們常用的語音辨識系統而言,是以 biphone 為聲學模型的單位,根據由音節到Mixture的階層架構,我們可以畫出下列示意圖:
在上圖中,每一個 state 又分成三個 stream,分別是 MFCC、ΔMFCC、ΔΔMFCC,由於 MFCC 是最重要的語音特徵,因此我們使用 6 個 mixture 來對 MFCC 建模,至於 ΔMFCC 及 ΔΔMFCC,我們各用兩個 mixture 來建模。

若以辨識網路及 HMM 的觀點來看,示意圖如下:

上圖中特別註明了三種 transition: 一旦確認聲學模型的架構,我們就可以使用 HTK 來對大量語料抽取出聲學模型的機率參數,請見下一節的說明。
Audio Signal Processing and Recognition (音訊處理與辨識)